\section{热力学转移与方差动力学的详细推导}
\label{app:thermodynamic-derivations}

本附录提供式~\eqref{eq:langevin,eq:variance-dynamics}中陈述的热力学结果的详细推导,建立Kramers逃逸率公式、方差演化方程和层级温度分层协议。

{\color{red}\textbf{[路线图]:} 三大块内容:1)Kramers逃逸率(势垒翻越需要多久); 2)方差演化(涨落如何增长和衰减); 3)温度分层(不同层级的温度应如何设置)。这些是热力学优化的三大支柱。}

\subsection{Kramers逃逸率}
\label{app:kramers}

\textbf{问题设置。}考虑$\ell$层的智能体在具有两个局部极小值$x_A$和$x_B$的一维势能景观$U_\ell(x)$中导航,两者被鞍点$x^\ddagger$处的高度为$\Delta U_\ell$的势垒分隔。我们寻求过阻尼极限下从状态$A$到状态$B$的平均首次通过时间。

{\color{red}\textbf{[经典问题]:} Kramers率是统计物理中的``氢原子''——看似简单但蕴含深刻物理。从化学反应(分子翻越势垒)到组织决策(跨越``变革阻力''),都服从这个普适规律。}

\subsubsection{Langevin动力学}

智能体运动遵循高摩擦(过阻尼)区域的Langevin方程:
\begin{equation}
    \frac{\diff x}{\diff t} = -\mu \nabla U_\ell(x) + \sqrt{2\mu k_B T_\ell}\, \xi(t),
    \label{eq:langevin-full}
\end{equation}
其中$\mu$是迁移率(摩擦系数的倒数),$k_B$是玻尔兹曼常数,$T_\ell$是$\ell$层的有效温度,$\xi(t)$是关联为$\langle \xi(t) \xi(t') \rangle = \delta(t - t')$的高斯白噪声。

{\color{red}\textbf{[Langevin方程的物理]:} 这个方程描述``在粘稠液体中的小球''——第一项$-\mu\nabla U$是确定性力(向势能低处滚),第二项$\sqrt{2\mu k_B T_\ell}\xi$是随机热涨落(周围分子的乱踢)。两项竞争决定动力学。}

当惯性时间标度$\tau_{\text{inertia}} = m/\gamma \ll \tau_{\text{diffusion}} = L^2/D$时过阻尼近似有效,其中$m$是有效质量,$\gamma$是摩擦系数,$L$是系统尺寸,$D = \mu k_B T_\ell$是扩散系数。对于组织系统,典型决策时间标度$\tau_{\text{decision}} \sim$小时-天远超动量弛豫$\tau_{\text{inertia}} \sim$秒-分钟,证明了过阻尼极限。

{\color{red}\textbf{[为什么过阻尼]:} 组织中的``惯性''(改变决策的阻力)松弛很快——一旦决定改变,立即执行。但``扩散''(探索新策略空间)很慢——需要长时间试错。这就像在蜂蜜中移动的小球:没有惯性,只有粘滞阻力和随机扰动。}

\subsubsection{Fokker-Planck方程}

概率密度$P(x,t)$根据Fokker-Planck方程演化:
\begin{equation}
    \frac{\partial P}{\partial t} = \frac{\partial}{\partial x}\left[\mu \frac{\partial U_\ell}{\partial x} P\right] + \mu k_B T_\ell \frac{\partial^2 P}{\partial x^2}.
    \label{eq:fokker-planck-detailed}
\end{equation}
可改写为流形式$\partial P/\partial t = -\partial J/\partial x$,概率流为
\begin{equation}
    J(x,t) = -\mu \frac{\partial U_\ell}{\partial x} P - \mu k_B T_\ell \frac{\partial P}{\partial x}.
    \label{eq:probability-current-detailed}
\end{equation}

{\color{red}\textbf{[概率流的直觉]:} $J(x,t)$是``单位时间通过点$x$的概率量''——类比质量守恒方程$\partial\rho/\partial t + \nabla\cdot\mathbf{j}=0$。第一项是``漂移流''(势能推动),第二项是``扩散流''(浓度梯度驱动)。稳态时$J=0$,概率不再流动。}

\textbf{稳态分布。}在平衡态($\partial P/\partial t = 0$),细致平衡条件$J = 0$给出玻尔兹曼分布:
\begin{equation}
    P_{\text{eq}}(x) = \frac{1}{Z} \exp\left(-\frac{U_\ell(x)}{k_B T_\ell}\right), \quad Z = \int \diff x\, \exp\left(-\frac{U_\ell(x)}{k_B T_\ell}\right).
    \label{eq:boltzmann-detailed}
\end{equation}

{\color{red}\textbf{[玻尔兹曼分布的普适性]:} 这个$\sim e^{-U/k_BT}$形式惊人地普适——从气体分子能量分布到城市规模分布,从神经元放电到股票收益,无处不在。原因是最大熵原理:给定平均能量,这是``最不偏向''的分布。}

\subsubsection{调和近似}

在局部极小值$x_A$附近,将势能展开到二阶:
\begin{equation}
    U_\ell(x) \approx U_\ell(x_A) + \frac{1}{2} k_A (x - x_A)^2, \quad k_A = \left.\frac{\diff^2 U_\ell}{\diff x^2}\right|_{x=x_A} > 0.
    \label{eq:harmonic-well}
\end{equation}
特征频率为$\omega_A = \sqrt{k_A/m_{\text{eff}}}$,其中$m_{\text{eff}}$是有效惯性参数。在过阻尼极限,我们使用有效频率$\omega_A = \mu k_A$。

类似地,在鞍点$x^\ddagger$:
\begin{equation}
    U_\ell(x) \approx U_\ell(x^\ddagger) - \frac{1}{2} |k_B| (x - x^\ddagger)^2, \quad k_B = -\left.\frac{\diff^2 U_\ell}{\diff x^2}\right|_{x=x^\ddagger} > 0,
    \label{eq:harmonic-saddle}
\end{equation}
过阻尼表述中的虚频率为$\omega_B = \sqrt{k_B/m_{\text{eff}}} = \mu k_B$。

{\color{red}\textbf{[为什么调和近似]:} 任何光滑势能在极值点附近都可以泰勒展开,一阶项消失(因为是极值),二阶项$\sim x^2$给出``调和振子''。这是局部近似的威力——复杂势能局部看都像简单的抛物线。}

\subsubsection{Kramers计算}

逃逸率$k_{A \to B}$通过在$x_B$处吸收边界条件下求解势垒上的稳态流获得。遵循Kramers的原始方法:

{\color{red}\textbf{[Kramers的天才]:} 1940年Kramers意识到:不需要求解全时间演化,只需稳态流!系统快速在阱$A$内平衡,然后缓慢``渗漏''过势垒。计算这个渗漏率就够了——这种``准稳态''思想极大简化了问题。}

\textbf{步骤1:准稳态近似。}在阱$A$内,系统在时间标度$\tau_{\text{eq}} \sim 1/\omega_A$上快速平衡到$P \approx P_{\text{eq}}^A$,远快于势垒翻越时间$\tau_{\text{escape}} \sim \exp(\Delta U_\ell/(k_B T_\ell))$。

\textbf{步骤2:流计算。}势垒上的概率流为
\begin{equation}
    J = -\mu k_B T_\ell \exp\left(-\frac{U_\ell(x)}{k_B T_\ell}\right) \frac{\diff}{\diff x}\left[P(x) \exp\left(\frac{U_\ell(x)}{k_B T_\ell}\right)\right].
\end{equation}
从$x_A$到$x^\ddagger$积分并使用$P(x_A) \approx \int_{-\infty}^{x^\ddagger} \diff x\, P(x)$(所有概率在阱$A$):
\begin{equation}
    J = \mu k_B T_\ell P(x_A) \left[\int_{x_A}^{x^\ddagger} \diff x\, \exp\left(\frac{U_\ell(x)}{k_B T_\ell}\right)\right]^{-1}.
\end{equation}

\textbf{步骤3:鞍点近似。}使用调和展开~\eqref{eq:harmonic-well}--\eqref{eq:harmonic-saddle}:
\begin{align}
    P(x_A) &\approx \frac{1}{Z_A} \exp\left(-\frac{U_\ell(x_A)}{k_B T_\ell}\right), \quad Z_A = \sqrt{\frac{2\pi k_B T_\ell}{k_A}}, \\
    \int_{x_A}^{x^\ddagger} \diff x\, \exp\left(\frac{U_\ell(x)}{k_B T_\ell}\right) &\approx \exp\left(\frac{U_\ell(x^\ddagger)}{k_B T_\ell}\right) \sqrt{\frac{2\pi k_B T_\ell}{k_B}}.
\end{align}

\textbf{步骤4:逃逸率。}逃逸率$k_{A \to B} = J/\int_{-\infty}^{x^\ddagger} P \, \diff x \approx J/P(x_A) Z_A$变为
\begin{equation}
    \boxed{k_{A \to B} = \frac{\omega_A \omega_B}{2\pi\mu} \exp\left(-\frac{\Delta U_\ell}{k_B T_\ell}\right)},
    \label{eq:kramers-rate-detailed}
\end{equation}
其中$\Delta U_\ell = U_\ell(x^\ddagger) - U_\ell(x_A)$是势垒高度,预因子$\omega_A \omega_B/(2\pi\mu)$来自阱和鞍点处的调和近似。

{\color{red}\textbf{[公式的三个因子]:} 1) $\exp(-\Delta U/k_BT)$:热激活——到达势垒顶的玻尔兹曼概率; 2) $\omega_A/(2\pi)$:尝试频率——每秒撞击势垒多少次; 3) $\omega_B$的因子:势垒透射——势垒越尖,越难穿透。三者相乘得逃逸率。}

\textbf{物理解释。}
\begin{itemize}
    \item \textbf{阿伦尼乌斯指数}:$\exp(-\Delta U_\ell/(k_B T_\ell))$因子反映到达势垒顶的玻尔兹曼概率——热激活过程的基础。
    \item \textbf{尝试频率}:预因子$\omega_A/(2\pi)$表示阱$A$内的振荡率,设定单位时间的势垒碰撞尝试次数。
    \item \textbf{势垒透明度}:因子$\omega_B$表征势垒曲率——更尖的势垒(更大的$\omega_B$)抑制跨越概率。
    \item \textbf{平均停留时间}:状态$A$的期望驻留时间为$\tau_A = 1/k_{A \to B} \propto \exp(\Delta U_\ell/(k_B T_\ell))$,当$T_\ell \to 0$时指数发散。
\end{itemize}

{\color{red}\textbf{[量级估计]:} 典型参数:$\Delta U \sim 10 k_B T$,$\omega_A \sim 10^{12}$ Hz(分子振动)。代入得$k_{A\to B} \sim 10^{12} \cdot e^{-10} \sim 10^{-3}$ Hz,即平均$\tau_A \sim 1000$秒翻越一次。势垒每增加$k_BT$,速率降低$e$倍($\sim 2.7$倍慢)——指数敏感性!}

\textbf{有效性范围。}Kramers公式需要:
\begin{enumerate}
    \item 过阻尼动力学:$\tau_{\text{inertia}} \ll \tau_{\text{diffusion}}$(对组织系统成立)
    \item 高势垒:$\Delta U_\ell \gg k_B T_\ell$(确保稀有事件统计)
    \item 调和阱:势能在$x_A$、$x_B$、$x^\ddagger$附近近似二次
    \item 弱噪声:轨迹集中在确定性路径附近
\end{enumerate}

{\color{red}\textbf{[何时失效]:} 当$\Delta U \sim k_B T$时,玻尔兹曼因子$\sim e^{-1}$不再``稀有'',准稳态假设崩溃。此时需要完整的Fokker-Planck求解。另外,当势垒非抛物线时(如立方势),预因子需修正。}

\subsection{方差演化方程}
\label{app:variance}

\textbf{设置。}考虑由具有线性恢复力的Langevin动力学支配的多维序参量$\bm{\Phi}_\ell \in \mathbb{R}^d$:
\begin{equation}
    \frac{\diff \bm{\Phi}_\ell}{\diff t} = -\mu \mathbf{K}_\ell \bm{\Phi}_\ell + \sqrt{2\mu k_B T_\ell}\, \bm{\xi}(t),
    \label{eq:langevin-linear}
\end{equation}
其中$\mathbf{K}_\ell$是刚度矩阵,$\bm{\xi}(t)$是$d$维白噪声,满足$\langle \xi_i(t) \xi_j(t') \rangle = \delta_{ij} \delta(t - t')$。

为简单起见,假设各向同性动力学$\mathbf{K}_\ell = k_\ell \mathbf{I}$。方差$\sigma_\ell^2(t) = \langle \|\bm{\Phi}_\ell(t) - \langle \bm{\Phi}_\ell \rangle\|^2 \rangle / d$满足闭合演化方程。

{\color{red}\textbf{[为什么关心方差]:} 方差$\sigma^2$测量``涨落的强度''——智能体偏离平均行为有多远。在模拟退火中,方差控制``探索强度'':$\sigma^2$大时广泛搜索,$\sigma^2$小时局部精调。方差动力学告诉我们何时达到平衡,何时该降温。}

\subsubsection{从二阶矩推导}

定义二阶矩张量$\mathbf{C}(t) = \langle \bm{\Phi}_\ell(t) \otimes \bm{\Phi}_\ell(t) \rangle$。取时间导数:
\begin{align}
    \frac{\diff \mathbf{C}}{\diff t} &= \left\langle \frac{\diff \bm{\Phi}_\ell}{\diff t} \otimes \bm{\Phi}_\ell + \bm{\Phi}_\ell \otimes \frac{\diff \bm{\Phi}_\ell}{\diff t} \right\rangle \nonumber \\
    &= \left\langle \left(-\mu k_\ell \bm{\Phi}_\ell + \sqrt{2\mu k_B T_\ell}\, \bm{\xi}\right) \otimes \bm{\Phi}_\ell + \bm{\Phi}_\ell \otimes \left(-\mu k_\ell \bm{\Phi}_\ell + \sqrt{2\mu k_B T_\ell}\, \bm{\xi}\right) \right\rangle.
\end{align}

使用$\langle \bm{\xi}(t) \otimes \bm{\Phi}_\ell(t) \rangle = \mathbf{0}$(噪声与当前状态不相关)和$\langle \bm{\xi}(t) \otimes \bm{\xi}(t) \rangle = \mathbf{I} \delta(0)$,得到
\begin{equation}
    \frac{\diff \mathbf{C}}{\diff t} = -2\mu k_\ell \mathbf{C} + 2\mu k_B T_\ell \mathbf{I}.
    \label{eq:covariance-evolution}
\end{equation}

{\color{red}\textbf{[技巧]:} 为什么$\langle\bm{\xi}(t)\otimes\bm{\Phi}_\ell(t)\rangle=0$?因为$\xi(t)$是``未来噪声''(时刻$t$的瞬时踢),而$\Phi_\ell(t)$由``过去噪声''(所有$t'<t$)决定。白噪声无记忆,所以$\xi(t)$与$\Phi_\ell(t)$独立。}

对于各向同性系统,$\mathbf{C}(t) = \sigma_\ell^2(t) \mathbf{I}$,简化为标量方程:
\begin{equation}
    \boxed{\frac{\diff \sigma_\ell^2}{\diff t} = -2\mu k_\ell \sigma_\ell^2 + 2\mu k_B T_\ell d}.
    \label{eq:variance-evolution-derived}
\end{equation}

{\color{red}\textbf{[方程的物理]:} 两项竞争:$-2\mu k_\ell\sigma^2$是``恢复力导致的衰减''(弹簧把涨落拉回平均),$+2\mu k_B T_\ell d$是``噪声注入''(热浴持续踢动)。平衡点就是平衡态方差。}

\subsubsection{平衡方差}

设$\diff \sigma_\ell^2 / \diff t = 0$得到平衡方差:
\begin{equation}
    \boxed{\sigma_{\text{eq}}^2 = \frac{k_B T_\ell d}{k_\ell}}.
    \label{eq:equilibrium-variance}
\end{equation}

\textbf{物理解释。}
\begin{itemize}
    \item \textbf{能量均分}:每个自由度贡献$k_B T_\ell/(2k_\ell)$给方差,与能量均分定理$\langle k_\ell \phi_i^2 / 2 \rangle = k_B T_\ell / 2$一致。
    \item \textbf{温度标度}:方差随温度$T_\ell$线性增长——更高温度诱导更强涨落。
    \item \textbf{刚度标度}:方差随刚度$k_\ell$下降——更强恢复力限制涨落。
    \item \textbf{维度效应}:方差随系统维度$d$增长——更多自由度积累涨落能量。
\end{itemize}

{\color{red}\textbf{[能量均分的普适性]:} $\langle E \rangle = \frac{1}{2}k_B T$每自由度是19世纪统计力学的伟大发现。它适用于一切:理想气体分子平动($\frac{1}{2}mv^2$)、固体原子振动($\frac{1}{2}kx^2$)、甚至电路中的热噪声。这个$\sigma^2 = k_BT/k$是其直接推论。}

\subsubsection{弛豫动力学}

用初始条件$\sigma_\ell^2(0) = \sigma_0^2$求解式~\eqref{eq:variance-evolution-derived}:
\begin{equation}
    \sigma_\ell^2(t) = \sigma_{\text{eq}}^2 + \left(\sigma_0^2 - \sigma_{\text{eq}}^2\right) \exp(-2\mu k_\ell t).
    \label{eq:variance-relaxation}
\end{equation}

弛豫时间标度为
\begin{equation}
    \boxed{\tau_{\text{relax}} = \frac{1}{2\mu k_\ell}}.
    \label{eq:relaxation-time}
\end{equation}

{\color{red}\textbf{[指数弛豫]:} 所有线性系统都指数弛豫——这是线性动力学$\dot{x}=-\gamma x$的解$x(t)\sim e^{-\gamma t}$。时间常数$\tau=1/\gamma$由``恢复力强度$k_\ell$''和``迁移率$\mu$''(即摩擦的倒数)决定。摩擦大($\mu$小)则弛豫慢。}

\textbf{自适应冷却协议。}定义归一化方差比:
\begin{equation}
    \rho(t) = \frac{\sigma_\ell^2(t)}{\sigma_{\text{eq}}^2(T_\ell(t))} = \frac{\sigma_\ell^2(t) k_\ell}{k_B T_\ell(t) d}.
\end{equation}
当$\rho(t) \in [0.9, 1.1]$时认为系统已平衡。式~\eqref{eq:adaptive-cooling}中基于方差的冷却计划表确保只在充分探索后才降温:
\begin{equation}
    T_\ell(t+1) = \begin{cases}
        \alpha T_\ell(t) & \text{若} \rho(t) \in [0.9, 1.1] \\
        T_\ell(t) & \text{否则}
    \end{cases}, \quad \alpha \in (0, 1).
\end{equation}
这个自适应协议通过在降低探索强度前等待完全平衡来防止过早收敛到局部最优。

{\color{red}\textbf{[自适应的智慧]:} 固定冷却计划($T_{k+1}=\alpha T_k$)的危险是:如果系统还在探索($\rho\ll 1$,方差未饱和),就降温,会``冻结''在非平衡态。自适应协议说:``等系统探索够了($\rho\approx 1$)再降温''——就像爬山时只有踏稳当前平台才往下一阶。}

\subsection{层级依赖的温度分层}
\label{app:temperature-stratification}

\textbf{动机。}层级系统呈现时间尺度分离:低层级(一线工人、单个车辆)在快时间标度$\tau_1 \sim$秒-分钟运行,而高层级(战略规划、网络协调)在慢时间标度$\tau_L \sim$小时-天演化。为了在各层级保持一致探索,有效温度必须根据这些自然时间标度分层。

{\color{red}\textbf{[为什么分层]:} 如果所有层级用相同温度$T$,会发生什么?快层级($\tau$小)会``冻结''(因为势垒翻越率$\sim \omega e^{-\Delta U/k_BT}$,其中$\omega\sim 1/\tau$大,但指数因子固定);慢层级($\tau$大)会``狂躁''(尝试频率低但温度太高,过度跳跃)。分层温度$T_\ell\propto \tau_\ell$保证各层的``探索/利用比''一致。}

\subsubsection{Kramers时间标度匹配}

由附录~\ref{app:kramers},$\ell$层的亚稳态平均停留时间为
\begin{equation}
    \tau_\ell = \frac{2\pi\mu}{\omega_A^{(\ell)} \omega_B^{(\ell)}} \exp\left(\frac{\Delta U_\ell}{k_B T_\ell}\right).
    \label{eq:kramers-timescale}
\end{equation}

为实现时间标度分离$\tau_{\ell+1} / \tau_\ell = \Lambda > 1$(例如$\Lambda = 10$代表一个数量级),我们需要
\begin{equation}
    \frac{\exp(\Delta U_{\ell+1}/(k_B T_{\ell+1}))}{\exp(\Delta U_\ell/(k_B T_\ell))} = \Lambda \frac{\omega_A^{(\ell)} \omega_B^{(\ell)}}{\omega_A^{(\ell+1)} \omega_B^{(\ell+1)}}.
\end{equation}

假设各层级间势垒曲率相似($\omega_A^{(\ell)} \approx \omega_A^{(\ell+1)}$),简化为
\begin{equation}
    \frac{\Delta U_{\ell+1}}{T_{\ell+1}} - \frac{\Delta U_\ell}{T_\ell} = \ln\Lambda.
\end{equation}

对于势垒近似恒定$\Delta U_\ell \approx \Delta U$(例如决策复杂度相似)的层级,得到分层规则:
\begin{equation}
    \boxed{\frac{T_\ell}{T_{\ell+1}} = \frac{\tau_{\ell+1}}{\tau_\ell} = \Lambda}.
    \label{eq:temperature-stratification-derived}
\end{equation}

{\color{red}\textbf{[温度-时间标度对应]:} 这个公式优雅地将两个看似无关的量联系起来:温度比=时间标度比。物理上,$T$控制``探索强度''(跳跃频率),$\tau$是``内禀时间节奏''。让$T$跟随$\tau$确保``每个层级在自己的时钟上以相同速度探索''。}

\subsubsection{物理解释}

\textbf{快层跑热。}具有快速动力学($\tau_\ell$小)的低层级需要更高温度$T_\ell$以维持足够的势垒翻越率。这使得对局部条件的响应性适应。

\textbf{慢层跑冷。}具有慢动力学($\tau_{\ell+1}$大)的高层级在低温$T_{\ell+1}$下运行,促进稳定并防止战略尺度的快速政策振荡。

\textbf{层级一致性。}分层式~\eqref{eq:temperature-stratification-derived}确保探索强度——以相对于内禀时间标度的势垒翻越频率测量——在各层级保持可比。没有这种匹配,快层级会过早冻结或慢层级会混乱抖动。

{\color{red}\textbf{[类比]:} 想象多层级组织:一线员工(快层)每小时做决策,需要``高温''(灵活、试错);中层管理(中层)每天决策,中等温度(稳健);CEO(慢层)每季度决策,需要``低温''(深思熟虑、避免冲动)。如果CEO也``高温'',会朝令夕改;如果员工``低温'',会僵化迟缓。}

\subsubsection{初始化协议}

给定规划时域$H$(重新优化前的决策周期数),我们初始化温度以确保每个层级探索$O(1)$个状态转移:
\begin{equation}
    T_\ell(0) = \frac{\Delta U_\ell}{k_B \ln(H/\tau_\ell^{\text{min}})},
    \label{eq:temperature-initialization}
\end{equation}
其中$\tau_\ell^{\text{min}}$是最小要求停留时间。这确保$k_{\ell \to \ell'} \tau_\ell \sim H$,在规划时域内产生$O(H/\tau_\ell)$个期望转移。

结合初始化~\eqref{eq:temperature-initialization}、自适应冷却~\eqref{eq:adaptive-cooling}和分层~\eqref{eq:temperature-stratification-derived},得到尊重层级结构和探索-利用权衡的热力学一致温度计划表。

{\color{red}\textbf{[设计智慧]:} 三个协议协同工作:初始化设定``起跑线''(确保有足够探索时间),分层保证``各层同步''(时间标度匹配),自适应避免``摔跤''(等平衡再降温)。这是热力学优化的``三位一体''。}

\subsubsection{与信息-热力学对偶性的联系}

温度分层也调节信息流。转移熵$TE_{\ell \to \ell+1}$测量每时间步传输的比特。由于高层级运行更慢($\Delta t_{\ell+1} = \Lambda \Delta t_\ell$),有效信息率
\begin{equation}
    \dot{I}_{\ell \to \ell+1} = \frac{TE_{\ell \to \ell+1}}{\Delta t_{\ell+1}} \propto \frac{1}{\Lambda}
\end{equation}
随层级降低。这自然实现信息瓶颈,压缩信息上升时的表示,同时保留协调相关特征。

同时,单位实际时间的熵产生
\begin{equation}
    \dot{\sigma}_\ell = \frac{\sigma_\ell}{\tau_\ell} \propto \frac{T_\ell}{\tau_\ell}
\end{equation}
在分层$T_\ell / \tau_\ell \approx T_{\ell+1}/\tau_{\ell+1}$下在各层级保持近似恒定,确保整个层级的均匀热力学效率。

{\color{red}\textbf{[双重一致性]:} 温度分层同时实现两个目标:1)信息论上——高层的低信息率自然形成``瓶颈'',强制抽象(丢弃细节,保留本质); 2)热力学上——各层的``单位时间能耗''$\dot{\sigma}$恒定,没有哪层特别浪费。这是理论的自洽之美。}

